7. 相関と2変量正規分布
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
知覚された長さの実験「私はどれほど正確に長さを評価できるだろう」
10本のパスタを5cm~20cmくらいの長さに適当に折る
1本引き、mmの単位で長さを目測し、記録する
10本のパスタをすべて同様に評価したら、パスタの長さを実測する
7.1. 2変量データ
ここで対応があるとは、1つの観測対象から2回測定されているという意味
前章までの知覚時間の実験群と対照群の測定値は互いに何の関係もなく測定された
それに対して、「パスタデータ」は10本の観測対象に対して、それぞれ2回の測定を行っている
実験群と対照群の2つの変数をそれぞれ以下のように表現する
$ \bm x_1 = (x_{11}, \cdots, x_{1i}, \cdots, x_{1n}) = (110, 232, \cdots, 193, 250) \qquad (7.1)
$ \bm x_2 = (x_{21}, \cdots, x_{2i}, \cdots, x_{2n}) = (130, 268, \cdots, 142, 175) \qquad (7.2)
1つ目の添字は$ 1: 目測群, $ 2: 実測群で、2つ目の添字は観測対象で$ n = 10
7.1.1. 数値要約・図的要約
データの要約的記述をする
table: 表7-2 「パスタデータ」の数値要約
統計量 平均 sd 分散 25%点 50%点 75%点
目測群 180.7 45.3 2052 124 192 207
実測群 150.9 50.7 2571 128 145 175
平均と中央値は、いずれも実測群のほうが小さい
散布度は目測群の方が小さい
以上のことは図7-1の箱ひげ図からも観察される
https://gyazo.com/395010456fe1fd7634f1252cf1222f33
2変量データの状態を視覚的に確認するためには図7-2に示したような散布図を描くことが有効
https://gyazo.com/1d0e5a510e8468be261d8b8f9220e696
縦軸と横軸にそれぞれの変数の目盛りを配し、観測対象を2次元平面上に付置した統計グラフ
図2-1も散布図(平均と標準偏差の事後分布)
図7-2の散布図には$ y=xの補助線が引かれている
これによって実測値より長く目測されたパスタが7本であり、短く目測されたパスタが3本あることがわかる
7.1.2. 共分散
「知覚時間データ」では、分布の状態を数値要約するために代表値と散布度を求めた
「パスタデータ」のような2変量のデータでは、代表値と散布度以外にどのような観点を数値要約すればよいのだろうか
図7-2を観察すると、左下から右上に向かってデータが打点されている
実測の長いものは長く目測され、短いものは短く目測されているから
左下から右上に向かって右上がりにデータが打点される2変数の関係
左下から右下に向かって右下がりにデータが打点される2変数の関係
どちらの特徴もない2変数の関係
$ v_{1i} = x_{1i} - \bar x_1 = x_{1i} - \frac{1}{n}(x_{11} + \cdots + x_{1i} + x_{1n}) \qquad (7.3)
$ v_{2i} = x_{2i} - \bar x_2 = x_{2i} - \frac{1}{n}(x_{21} + \cdots + x_{2i} + x_{2n}) \qquad (7.4)
平均偏差データは、必ず平均が0になる。sdに変化はない
「パスタデータ」の平均偏差データを表7-3に表す
table: 表7-3 「パスタデータ」の平均偏差データ
目測群 -70.7 51.3 -4.7 26.3 -58.7 21.3 10.3 -56.7 12.3 69.3
実測群 -20.9 117.1 -46.9 34.1 -22.9 -3.9 11.1 -82.9 -8.9 24.1
例えばこの中の最初のデータに関して、以下のように計算されている
「目測群」は$ -70.7 = 110-180.7,
「実測群」は$ -20.9 = 130 - 150.9
観測対象ごとの平均偏差データの積($ v_{1i} \times v_{2i})の平均値
$ s_{12} = \frac{1}{n}(v_{11} \times v_{21} + \cdots + v_{1i} \times v_{2i} + \cdots v_{1n} \times v_{2n}) \qquad (7.5)
「パスタデータ」の共分散は以下のようになった
$ s_{12} = 1623.9 = \frac{1}{10}((-70.7) \times (-20.9) + \cdots + 69.3 \times 24.1) \qquad (7.6)
正の値であるから「目測」と「実測」は正の相関関係にあることが示され、これは図7-2の特徴と一致する
共分散で相関関係を数値要約できる理由
https://gyazo.com/bf76b30f89e2b7470ff7e138b465bd27
第1象限のデータの平均偏差の積は正でデータは4個
第2象限のデータの平均偏差の積は負でデータは2個
第3象限のデータの平均偏差の積は正でデータは4個
第4象限のデータの平均偏差の積は負でデータは0個
左下から右上に向かった形状の散布図
一般的に第1象限と第3象限のデータの数が多くなる
左上から右下に向かった形状の散布図
一般的に第2象限と第4象限のデータの数が多くなる
4つの象限に満遍なくデータが打点される散布図は、平均偏差データの積は0に近くなる
共分散の欠点
相関関係の強弱を表現することが苦手
共分散の大きさを直接的に相関関係の強さとして解釈することができない
「パスタデータ」の共分散は$ 1623.9
この数値だけからは相関関係の強さはよくわからない
7.1.3. 相関係数
一次変換に対して不変な相関関係の指標として相関係数がある
平均偏差データを標準偏差で割ったもの
$ z_{1i} = v_{1i}/s_1 \qquad (7.7)
$ z_{2i} = v_{2i}/s_2 \qquad (7.8)
標準化データは、必ず平均が$ 0、標準偏差が$ 1になる
table: 「パスタデータ」の標準化データ
目測群 -1.56 1.13 -0.10 0.58 -1.30 0.47 0.23 -1.25 0.27 1.53
実測群 -0.41 2.31 -0.93 0.67 -0.45 -0.08 0.22 -1.64 -0.18 0.48
標準化データの積の平均値
$ r = \frac{1}{n}(z_{11}z_{21} + \cdots z_{1i}z_{2i} + \cdots + z_{1n}z_{2n}) \qquad (7.9)
「パスタデータ」の相関係数は以下のようになった
$ r = 0.71 = \frac{1}{10}((-1.56) \times (-0.41) + 1.13 \times 2.31 + \cdots 1.53 \times 0.48) \qquad (7.10)
相関係数は、測定値に正の値を掛けても、定数を加えても変化しない
また、相関係数は$ [-1, +1] の区間に収まるから、解釈も容易
相関係数とその典型的な散布図
https://gyazo.com/e6ec369756713bcc9460fe895a4e7870
実際には、こんなにきれいな散布図が観察されることはまれ
7.1.4. 相関係数の絶対値は1以下
相関係数が$ [-1, +1] の区間に収まることを確かめる
まず、補助的な指標として、2つの指標の標準化データの差を考える
$ y_i = z_{1i} - z_{2i} \qquad (7.11)
この値$ y_iの2上の平均$ \overline{y^2} を展開すると以下のようになる
$ \begin{aligned} \overline{y^2} & = \frac{1}{n}(y_1^2 + y_2^2 + \cdots +y_i^2 + \cdots + y_n^2) \\ & \small{[(a-b)^2 = a^2 + b^2 - 2abという恒等式を使い]} \\ & = \frac{1}{n}(z_{11}^2 + \cdots + z_{1i}^2 + z_{1n}^2) + \frac{1}{n}(z_{21}^2 + \cdots + z_{2i}^2 + \cdots z_{2n}^2) \\ & - \frac{2}{n}(z_{11}z_{21} + \cdots z_{1i}z_{2i} + \cdots + z_{1n}z_{2n}) \qquad (7.12) \\ & \small{[標準化データの平均は0なので第1項, 第2項はその分散である。} \\ & \small{\ 標準化データの分散は1である。第3項は(7.9)式の-2倍である。]} \\ & = 1 + 1 -2r \geq 0 \qquad (7.13) \end{aligned}
最左辺は2乗の平均なので、それが$ 0以上であることを最後の不等式は示している
不等式を解くと$ 1 \geq rとなる
同様にして同様にして2つの標準化データの和の2乗の平均を展開すると(7.12)式の第3項の符号が+になるので、$ r \geq -1となる
以上のことから2つの制約を満たす相関係数の区間としていかが導かれる
$ -1 \leq r \leq 1 \qquad (7.14)
7.2. 2変量正規分布
散布図はデータ分布の様子を素直に表現している
このため、第1章では正規分布と一様分布という2つの理論分布による視点を導入した
2変量の学習でも同様に理論分布を利用する
$ \begin{aligned} & f(x_1, x_2|\mu_1, \mu_2, \sigma_1, \sigma_2, \rho) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \times \\ & \exp\left[\frac{-1}{2(1-\rho^2)}\left(\left(\frac{x_1-\mu_1}{\sigma_1}\right)^2 - 2\rho\left(\frac{x_1-\mu_1}{\sigma_1}\right)\left(\frac{x_2-\mu_2}{\sigma_2}\right) + \left(\frac{x_2-\mu_2}{\sigma_2}\right)^2\right)\right] \qquad (7.15) \end{aligned}
$ \mu_1と$ \mu_2はそれぞれ$ x_1と$ x_2の平均
$ \sigma_1と$ \sigma_2はそれぞれ$ x_1と$ x_2の標準偏差
$ \rhoが母相関であり、データから計算した$ rに対応する
データの分布では以下であることが知られている
$ s_{12} = s_1s_2r, \quad r=\frac{s_{12}}{s_1s_2} \qquad (7.16)
それに対応し、母共分散と母相関には以下の関係がある
$ \sigma_{12} = \sigma_1\sigma_2\rho, \quad \rho = \frac{\sigma_{12}}{\sigma_1\sigma_2} \qquad (7.17)
図7-2に対応させ、$ r = 0.71に近い$ \rho = 0.7の場合の標準2変量正規分布の3次元グラフを図7-5に示す
https://gyazo.com/455095070bf2bdde529ca8403d651d65
図7-6に、標準2変量正規分布の密度関数の真上から見た等高線を、$ \rhoを変化させながら示す
https://gyazo.com/683bf88b9ac9a097de3e3f92da321106
$ \rho = 1.0または$ -1.0の場合は、1変数の標準正規分布となり、上から見ているので直線になってしまう
絶対値が大きくなるに従って細く、小さくなるに従って丸くなる
7.2.1. 事後分布・予測分布
2群の比較に関しては、標準偏差が共通したモデルと異なったモデルがある
標準偏差が共通したモデルには(7.15)式に$ \sigma = \sigma_1 = \sigma_2を仮定した2変量正規分布を利用する
データは以下
$ \bm x = (\bm x_1, \bm x_2) \qquad (7.18)
母数ベクトルは、標準偏差が共通したモデル(EQU)と異なったモデル(DEF)で、それぞれ
$ \bm \theta = (\mu_1, \mu_2, \sigma, \rho) \qquad (7.19)
$ \bm \theta = (\mu_1, \mu_2, \sigma_1, \sigma_2, \rho) \qquad (7.20)
パスタ間の測定が互いに影響し合わないとすると、(2.12)式に相当する尤度はEQUとDEFを共通して表現できる
$ f(\bm x|\bm \theta) = f(\bm x_1, \bm x_2|\bm\theta) = f(x_{11}, x_{21}|\bm\theta) \times \cdots \times f(x_{1n}, x_{2n}|\bm\theta) \qquad (7.21)
(2.14)式に相当する同時事後分布を、EQUとDEFでそれぞれ以下とする
$ f(\bm\theta) = f(\mu_1)f(\mu_2)f(\sigma)f(\rho) \qquad (7.22)
$ f(\bm\theta) = f(\mu_1)f(\mu_2)f(\sigma_1)f(\sigma_2)f(\rho) \qquad (7.23)
初登場の相関の事前分布は$ \rho \sim U(-1, 1)とする
以上から、(2.15)式に相当する事後分布は以下のように導かれる
$ f(\bm\theta|\bm x) = f(\bm\theta|\bm x_1, \bm x_2) \propto f(\bm x_1, \bm x_2|\bm\theta)f(\bm\theta) \qquad (7.24)
この式を利用し、MCMCによって母数の事後分布・生成量の事後分布に従う乱数を発生させる
事後予測分布は、2変量正規分布の密度関数を利用し、以下で発生させる
$ (x_1^{*(t)}, x_2^{*(t)}) \sim N_2(\bm\theta^{(t)}) \qquad (7.25)
7.2.2. 母数の推定
長さは正の領域で定義され、折る前のパスタは280mmだったので平均の事前分布は少し短く$ U(0, 250)、標準偏差の事前分布は$ U(0, 125)とした
相関$ \rhoに関しては、数学的に定義される区間の一様分布$ U(-1, 1)を事前分布とする
MCMCの実行に際しては長さ$ 21000のチェインを5つ発生させ、バーンイン期間を$ 1000とし、HMC法によって得られた$ 100000個の乱数で事後分布・予測分布を近似した
https://gyazo.com/cd64c7a51ca8d9a803b2d45bf8cedd51
EQUは$ \mathrm{WAIC} = 213.4であり、DEFは$ \mathrm{WAIC} = 215.9であったので、EQUが選択される
放送授業
5%水準で有意な結果が得られたからといって、帰無仮説が真である確率が5%以下であると解釈してはダメである
帰無仮説はデータを取る前から偽であることが明白である
帰無仮説の採択とは、帰無仮説を正しいものとして採用することではない
有意にならないからといって、差がないとは積極的にいえない